Chemical space exploration guided by deep neural networks, Karlov, Dmitry S., Sosnin, Sergey, Tetko, Igor V., Fedorov, Maxim V., The Royal Society of Chemistry, 2019

10.1039/C8RA10182E
illustrate-tool for work Mappingにカーソルオンで化合物の分子構造が図示されます

概要

パラメトリックt-SNEアプローチはディープフィードフォワードニューラルネットワークに基づきます、本報でケミカルスペースの可視化問題に適用されました。既存の次元削減手法(主成分分析(PCA)、多次元尺度構成法(MDS))よりも多くの情報を保持できます。この方法のいくつかのケミカルスペース・ナビゲーションタスク(activity cliffs and activity landscapes identification)への適用性について説明します。作業を説明するための簡単なWebツールを作成しました(http://space.syntelly.com)。

本論 まとめ

Chemical Space : '化学物質空間' ケミカルスペース:ケミカルスペースは通常、(実行可能なすべての)化合物の集合

ケミカルスペースの視覚化手法は二段階手順を使用;

1.分子記述子の計算

method note use
Molecular quantum number (MQN) トポロジカル記述子。比較的短い単純な分子記述子セットの例(42記述子)6
MACCS構造キー
ECFPフィンガープリント

2.既知の手法によって2D平面または3D空間への投影。異なるものを組み合わせるオプションも可能。次元削減手法。

method note use
Principal Component Analysis (PCA) 2,9,10
Multidimensional scaling 多次元尺度構成法 両方の表現の距離が互いに最大に近い高次元データの低次元表現 42
t-SNE
parametric t-SNE
Self-Organizing Maps (SOM) 11,12
Generative Topographic Mapping 4,13,14,15
Jürgen Bajorath, a graph-like method 16
Scaffold Trees 17

いくつかはケモインフォマティックス特有の手法である

  • Stardrop(Optibrium Ltd.、Cambridge、UK)とDataWarrior(http://openmolecules.org)は、さまざまな視覚化アプローチとケモインフォマティクスデータ分析を組み合わせを提案
  • 3D空間での化学データセットの視覚化に使用されるCheS-Mapper18ツールは、多数の化学記述子といくつかの投影アルゴリズム(PCA、t-SNE)の両方を提供

3.手法を適用させてみるオープンデータ

method note use
ChEMBL v.23 27
Database of Useful Decoys(DUDe) 26
Trace Amine Associated Receptor(TAAR1)

4.マッピングの品質を数値的に比較するための既存機械学習方法(分類モデル。scikit-learnの実装を使用。)

method note use
サポートベクターマシン 高次元空間での最適な分離超平面の構築に基づく機械学習手法です37。この手法は、ケモインフォマティクスで広く使用されています。
ランダムフォレスト 決定木のコンセンサスモデル(フォレスト)の構築に基づく方法です。 Breiman38によって提案されたこの方法は、効率と調整可能なパラメーターの数が少ないため、ケモインフォマティクスでさらに人気を博しました
XGBoost 事前トレーニングされた予測子の残差を修正するために、新しい各ツリー(または他の単純な予測子)がトレーニングされるバリアント勾配ブースティングスキームです39。適切なハイパーパラメーター最適化の後、このアプローチは優れた結果を達成できます
K最近傍法 特定のメトリックを持つ記述子空間内のk個の最も近いデータポイントからのデータの加重和として予測を生成する方法です。この方法は、小さなデータセットにうまく使用されます40

memo

Graphical Abstructの画像は実体と少しずれている気がするので注意

deep feed-forward neural networks 用語がちょっと不正確な気がする。ここでは「深層学習の中の一手法」くらいの意味か。たとえば参考情報

An Introduction to Deep Feedforward Neural Networks

Electronic supplementary information (ESI) available. See DOI: 10.1039/c8ra10182e

(ここまで)